统计计量 | 计量经济学、机器学习和深度学习
本文转载自公众号E校挺好
本篇短文是班门弄斧之做,其目的是抛砖引玉,引发大佬们对个话题的关注。
机器学习和深度学习是伴随人工智能发展而兴起的建模方法。一般的编程需要考虑应用场景所有可能出现的情况,并且对每种情况设定相关指令,大体上就是“if …elif….elif….else”之类的结构。但是,无论我们考虑得多么周全,都不能穷尽所有的可能情况。一般的编程遇到“未考虑情况”时,就卡壳了,但人工智能不会。人工智能的工作原理是,基于已有数据信息创建一个新模型,遇到“未考虑情况”时,使用新创建模型去处理。所以,自己创建模型是人工智能的核心步骤,通常使用的方法就是机器学习和深度学习。深度学习是机器学习的一个子集,使用的建模方法更难,一般要使用神经网络。
计量经济学也是一种建模方法,它跟机器学习、深度学习有什么联系和区别呢?
它们的联系很简单,都是基于已有数据信息创建模型,都是去寻找因变量Y和自变量()之间的函数关系。
它们的区别则要复杂得多。主要表现在以下几个方面:
(1)计量经济学使用的函数形式通知是已知的,例如线性函数。机器学习的函数形式是未知的,有点像非参数计量经济学。深度学习中,对Y产生影响都不是原来的自变量了。使用数学语言的话,它们的区别大体可以表示为:
计量经济学:
机器学习:
深度学习:
(2)计量经济学强调的是“验证理论”,强调因果关系识别,通常是某理论先给出了某自变量Xk影响Y的一个方向判断,计量经济学再去验证该方向判断是否正确。计量经济经济学反而不怎么关注是不是影响Y的最重要因素”。机器学习和深度学习强调的是“预测准确性”,事先都没有特意强调某自变量的重要性,对所有自变量一视同仁,到底哪个变量最重需要依靠结果去判定,是骡子是马拉出去溜溜。从这个角度来说,机器学习和深度学习更有可能发现那些影响程度大的自变量,更有利于新理论的发现,更能体现“实践是检验真理的唯一标准”这一准则。简言之,计量经济学的目的是验证现有理论,而机器学习和深度学习更有利于理论创新。
(3)机器学习和深度学习注重实用,它们基于训练集搭建模型,使用测试集检验预测准确性。目前的计量经济学基本没有训练集和测试集的区分,在训练集中既搭建模型又测试模型,既是运动员又是裁判员。计量经济学中的拟合优度高,通常对应机器学习和深度学习中“过拟合”的情形,这不是个好事,是个坏事。简言之,机器学习和深度学习重“实用”,计量经济学重“套路”。
(4)计量经济学的可解释性比较好,变量系数通常可解释为X变化一单位,Y变化几单位(或%几),机器学习和深度学习的可解释性不好,这也是它们在学术研究中还没有被广泛运用的原因吧。
(5)由于拿不到总体数据,计量经济学强调“通过样本推断总体”,强调系数显著性。机器学习和深度学习有时会拿到总体数据(例如某单位的门禁系统),即使拿不到,也不太强调系数的显著性。
通过上面的文字,大家可能认为我在贬低计量经济学。其实,我真正想表达的意思是,计量经济学、机器学习和深度学习各有长处,学术圈的朋友要对机器学习和深度学习有更大的包容度,不能因为没有因果关系识别、解释性不好就一棍子打死。我以前是坚定的“因果关系”论的拥护者,也听过Angrist教授的课,我第一次讲计量课的时候(2009年),我就在强调因果关系。但在我接触机器学习以后,我的想法有了很大改变,发现外面的世界更精彩。当然,本人对机器学习和深度学习的理解尚浅,特别是深度学习,目前只是调用了一些现成的库,自己没有编写过完整的项目。可能正是由于“得不到的就是好的,不理解的就是好的”这种心理作怪,谈了上述的想法,这些想法可能不客观,不成熟,希望大家多多拍砖,加深我对相关内容的理解,谢谢!
星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!
点击搜索你感兴趣的内容吧
往期推荐
数据Seminar
这里是大数据、分析技术与学术研究的三叉路口
欢迎扫描👇二维码添加关注